我们研究了在约束强化学习中有效探索的后验抽样方法。或者,对于现有算法,我们提出了两种简单的算法,这些算法在统计上更有效,更简单地实现和计算便宜。第一种算法基于CMDP的线性公式,第二算法利用CMDP的鞍点公式。我们的经验结果表明,尽管具有简单性,但后取样可实现最先进的表现,在某些情况下,采样明显优于乐观算法。
translated by 谷歌翻译
我们考虑了一个特殊的匪徒问题的情况,即批处理匪徒,其中代理在一定时间段内观察批次的响应。与以前的工作不同,我们考虑了一个更实际相关的以批量学习为中心的情况。也就是说,我们提供了政策不足的遗憾分析,并为候选政策的遗憾展示了上和下限。我们的主要理论结果表明,批处理学习的影响是相对于在线行为的遗憾,批处理大小的多重因素。首先,我们研究了随机线性匪徒的两个设置:有限且无限多手臂的土匪。尽管两种设置的遗憾界限都是相同的,但前者的设置结果在温和的假设下保持。另外,我们为2臂匪徒问题作为重要见解提供了更强大的结果。最后,我们通过进行经验实验并反思最佳批量选择来证明理论结果的一致性。
translated by 谷歌翻译
我们考虑了一个特殊的强盗问题,即批量炸匪。通过推荐制度和电子商务平台的自然限制,我们假设学习代理观察在一定时间内在分组中分批的响应。与以前的工作不同,我们考虑一个更实际相关的批量学习场景。我们为候选政策的遗憾提供了政策 - 不可知的遗憾分析,并展示上下界限。我们的主要理论结果表明,批量学习的影响可以根据在线行为来衡量。最后,我们通过进行经验实验并反映最佳批量尺寸选择来证明理论结果的一致性。
translated by 谷歌翻译
人类可以在各种时间尺度和层次级别上做出预测。因此,对事件编码的学习似乎起着至关重要的作用。在这项工作中,我们通过自主学习的潜在事件代码对层次预测的开发进行建模。我们提出了分层复发性神经网络结构,其诱导学习偏见促进了压缩感觉运动序列的稀疏潜在状态的发展。更高级别的网络学会了预测潜在国家倾向于改变的情况。使用模拟机器人操纵器,我们证明系统(i)学习了准确反映数据事件结构的潜在状态,(ii)在较高级别上开发有意义的时间抽象预测,(iii)生成了靶心,相似的行为在与婴儿的眼神追踪研究中发现的凝视行为。该体系结构为自主学习收集的经验的压缩层次编码以及对这些编码产生适应性行为的开发提供了一步。
translated by 谷歌翻译
电子商务提供丰富的多模式数据,几乎没有在实践中杠杆。此数据的一个方面是用于搜索和推荐的类别树。然而,在实践中,在用户会话期间,在给定类别的文本和视觉表示之间通常存在不匹配。出现问题的激励,我们介绍了电子商务类别到图像检索的任务,并提出了任务的模型,剪辑ITA。该模型利用来自多个模式(文本,视觉和属性模态)的信息来创建产品表示。我们探索如何从多种模式(文本,视觉和属性模态)中添加信息影响模型的性能。特别是,我们观察到剪辑ITA显着优于一种可比模型,该模型仅利用可视模式和利用视觉和属性模态的可比模型。
translated by 谷歌翻译
在这项工作中,我们向阿姆斯特丹大学的人工智能(_MACE-AI)的技术,研究生,保密性和透明度的技术,审查,保密性和透明度的设置,它通过再现性的镜头教导了概念。该课程的焦点是基于从顶级AI会议的现有事实-AI算法的基础项目,并撰写关于他们的经历的报告。在课程的第一次迭代中,我们创建了一个具有来自组项目的代码实现的开源存储库。在第二次迭代中,我们鼓励学生将他们的小组项目提交给机器学习再现性挑战,这导致了我们课程所接受的9个报告。我们反映了我们在两个学年课程教学的经验,其中一年恰逢全球大流行,并通过研究生级AI计划的可重复性提出了教学局面的指导。我们希望这可以成为教师在未来在其大学建立类似课程的有用资源。
translated by 谷歌翻译